
from bs4 import BeautifulSoup #导入BeautifulSoup库
import requests #导入requests库，用来读取在线网页数据的
import time  #导入time库，定时作用

### ex06：提取我的小书屋书籍信息
##  网址：http://mebook.cc/page/1
##  时间：2017年10月13日
##  难点:设置headers模拟手机登陆，详情可看requests相关文档

url = "http://mebook.cc/page/" #这是列表页网址的形式
headers ={
    "Accept-Language":"Accept-Language:zh-CN,zh;q=0.8",
    "User-Agent":"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Mobile Safari/537.36"
}

###第一个函数用于提取列表页产品的信息
def get_url_info(url):
    webdata = requests.get(url)  # 通过get方法获取网页数据
    soup = BeautifulSoup(webdata.text, 'lxml')  # 通过BeautifulSoup对网页数据解析
    titles = soup.select("div.content > h2 > a")  # 获取所有产品名称
    links = soup.select("div.content > h2 > a")  # 获取所有产品链接
    images = soup.select("div.img > a > img")  # 获取图片
    for title,link,image in zip(titles,links,images):
        data = {
            "名称":title.get("title"),
            "链接":link.get("href"),
            "图片":image.get("src")
        }
        print(data)

###第二个函数用于生成列表页
###列表页的形式要通过查看XHR得到
def get_more_pages(start, end):
    for number in range(start,end):
        get_url_info(url+str(number))
        time.sleep(3)   #暂停3秒

get_more_pages(1,3)


